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Prufungsantrag gem. § 44 PatG ist gestellt 

@ Architektur eines und Verfahren zum Konfigurieren eines Parallelrechners 

(§) Es werden eine Parallel rechn era rchitektur und ein Verfah- 
ren zum Bau und Neukonfiguration eines gewidmeten 
Parallelrechners fur die Berechnung von Problemen be- 
schrteben, die aus einer Vielzahl gekoppelter diskretisierba- 
rer VorgSnge bestehen. Die besondere Rechnerarchitektur 
erlaubt es dem Endbenutzer, mit Hilfe eines neuen Verfah- 
rens, wiederholt selbst einzelne diskrete Vorgange in einem 
klelnen digitalen Schaltkreis zu bestimmen und danach den 
gesamten Rechner mit diesen gekoppelten Vorgangen zu 
konfigurieren, mit einem Aufwand ahnlich zur (Compilation. 
Weil das Problem dann direkt parallel im Hardware berech- 
net wird, ohne die Zwischenstufen eines Befehlssatz, konnen 
Problems bis zu einen Millionenfach schnelier als die 
schnellsten Workstations be re ch net warden. Das Bauverfah- 
ren benutzt kommerziell ertialtliche Chips und erlaubt dem 
Endverbraucher, einen an ihren Problemen abgestimmten 
f massrven Parallel rechner zu bestimmen. 
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Beschreibung 

Die Erfindung betrifft eine Architektur fur einen und 
ein Verfahren zum Konfigurieren eines Parallelrech- 
ners. 5 

Die voriiegende Patentanmeldung beschreibt eine 
Parallelrechnerarchitektur und ein Verfahren zum Bau 
und zur Neukonfiguration eines den Problemen eines 
vorbestimmten Problemkreises gewidmeten Parallel- 
rechners far die Berechnung der Probleme dieses Pro- io 
blemkreises, wobei diese Probleme aus einer Vielzahl 
gekoppelter diskretisierbarer Vorgange bestehen, die 
innerhalb des Problemkreises unterschiedlich sein kdn- 
nen. Die besondere Rechnerarchitektur erlaubt es dem 
Endbenutzer, mit Hilfe eines neuen Verfahrens, wieder- is 
holt selbst einzelne diskrete Vorgange in einem kleinen 
digitalen Schaltkreis zu bestimmen und danach den ge- 
samten Rechner mit diesen gekoppelten Vorgangen zu 
konfigurieren, und zwar mit einem Aufwand ahnlich 
demjenigen bei der Kompilatioa Weil das Problem 20 
dann direkt parallel In Hardware" berechnet wird, ohne 
die Zwischenstuf en eines Befehlssatz, k6nnen Probleme 
bis zu einen Millionenfach schneller als die schnellsten 
heutzutage erhaltlichen Workstations berechnet wer- 
den. Zur Konfiguration werden kommerziell erhaltliche 25 
Chips benutzt, was es dem Endverbraucher erlaubt, ei- 
nen an seine Probleme abgestimmten leistungsstarken 
Parallelrechner zu bestimmen. 

Es werden eine neuartige Computerarchitektur und 
ein Prototyp eines Hardware-programmierbaren paral- 30 
lelen (Genetik-)Prozessors zur Untersuchung von inter- 
aktiver molekularer Evolution vorgeschlagen, der der- 
art ausgebildet ist, daB er die Simulation einer interakti- 
ven molekularen genetischen Verarbeitung ermdglicht 
Der Genetik-Prozessor erreicht die 10^-Generationen- 35 
grenze im Zeitraum von mehreren Rechnerstunden bei 
einer Population von 10 4 interagierenden Sequenzen 
variabler Lange mit einer Durchschnittslange von 
64 Bits. Der Computer ist hardware-programmierbar, 
wobei eine Anordnung von Field- Programable-Gate- 40 
Array-Chips (FPGA) und die mit diesen verbundenen 
speziellen Eigenschaften der verteilten Speicher ver- 
wendet werden. Insbesondere lassen sich die Bausteine 
der 4000-Familie solcher von der Firma XILINX ver- 
wenden. Die Verschiebung bei Simulationen von hone- 45 
ren Computersprachen zur Hardware-Ebene der Com- 
puter ist aufgrund der konzeptionellen und praktischen 
Vorteile vorteilhaft 

Problemstellung 50 

Viele feinkdrnige parallelisierbare Probleme der heu- 
tigen Wissenschaft, Medizin und Wirtschaft kfinnen mit 
der vorhandenen Kapazitat der jetzigen Rechner nicht 
bewaltigt werden. Ein typisches Beispiel ist die kombi- 55 
natorische Optimierung, wie sie z. B. auf dem Gebiet der 
evolutionaren Biotechnologie far Proteine gewiinscht 
wird Ein zweites Beispiel ist das Simulieren von Viel- 
kdrpersystemen, wie bei der Untersuchung von Stau- 
verhalten im Verkehrssystem. Die konventionelle seriel- 60 
le von-Neumann-Maschine, wie sie in vielen modernen 
Rechnern wie RISC Workstations realisiert wird, ist le- 
diglich in der Lage, sequentiell mit Hilfe eines universel- 
len Befehlssatzes solche Probleme zu emulieren. Diese 
Emulation ist begrenzt durch die CPU Leistung des Pro- 65 
zessors, die wiederum von der endlichen Verpackungs- 
dichte (z. B. lp. Maskenabstande) auf Silikon Chips be- 
grenzt ist Es ist auch ineffizient, weil der universelle 
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Befehlssatz von diesen Maschinen nicht optimal an je- 
des Anwendungsproblem angepafit werden kann. 

Die Schwierigkeit bei der Verwendung von Parallel- 
rechnern liegt in der Anpassung der Architektur und 
den GrundbefehJen des spezifischen Problems an die 
des Rechners: verschiedene Probleme erfordern ver- 
schiedene Parallelrechner. Es kommt hinzu, daB selbst 
die Kopplung mehrerer von-Neumann-Maschinen im 
Bereich der Synchronisierung und Datenverwaltung 
Probleme mit sich bringt, die sowohl bei der Herstellung 
von Rechnern als auch bei der Programmierung beacht- 
lich sind. Hier wird ein Verfahren beschrieben, das es 
erlaubt, mit vertretbarem Aufwand einen "gewidmeten w 
Parallelrechner fur jeden dieser Problemkreise zu bau- 
en. Was hier angeboten wird, ist ein neues Verfahren zur 
Computerherstellung, eine neue Computerarchitektur 
und ein neues Verfahren zur Computerprogrammie- 
rung. Die patentgemaBe Aufgabenstellung besteht in 
folgendem: 

1. Eine Parallelrechnerfamilie zu entwerfen, die 
vom Endbenutzer in Hardware an den eigenen 
Problemkreis angepaBt werden kann. 
2 Ein Verfahren zur Herstellung eines solchen an- 
gepaBten Reamers ohne zeitaufwendiges Chip- 
Design, d. k mit bereits kommerziell erhaltlichen 
Chips, und ohne schwierige Synchronisationsaufga- 
ben. 

3. Ein Verfahren zur Neukonfigurierung eines sol- 
chen Rechners. Das Programmieren des Rechners 
fur ein spezifisches Problem soil direkt auf der Ebe- 
ne des Konfigurierens der Hardware und nicht mit- 
tels einer Maschinensprache in Software erfolgen. 

Stand der Technik 

1. VerfOgbare Parallelrechnerarchitekturen 

Die folgende Diskussion wird auf feinkornige Paral- 
lelrechner beschrankt, da nur bei diesen genQgend Pro- 
zessoren fur groBe Leistungsgewinne im Vergleich zu 
den seriellen Rechnern zur VerfOgung stehen. So entfal- 
len eine ganze Reihe von Rechnern wie Transputernet- 
ze, der Intel Hypercube, der Kendall Square (Virtual 
Shared Memory) Rechner usw. WShrend solche Rech- 
ner, mit bis zu 1000 Prozessoren, Zeitgewinne bis zu 
etwa einem Faktor 100 erzielen konnen, kommen sie 
nicht darOber hinaus. Entwicklungszeiten und Kosten 
sind enorm hoch. Es bleiben drei feinkdrnige Architek- 
turen von Rechnern, die am ehesten mit dem Erfin- 
dungsgegenstand vergleichbar sind. 

a) Connection Machines (Thinking Machines Inc.) 
Ursprunglich als SIMD (Single Instruction Multiple 
Data) Maschinen entwickelt, erlauben die Connec- 
tion Machines die synchronparaUeie Verarbeitung 
bis zu 65 000 Datentragern. Vor kurzem ist auch 
eine MIMD (Multiple Instruction Multiple Data) 
Connection Maschine auf den Markt gekommen. 
Die Architektur basiert in beiden Fallen und im 
Gegensatz zu der hier zu patentierenden Architek- 
tur auf einer klassischen Instruktionsmenge. Ob- 
wohl die Connectionmaschinen flir manche fein- 
kdrnige arithmetische Berechnungen besonders 
gut geeignet sind, ist ihre Architektur vom Benut- 
zer jedoch nicht beeinfluBbar. 

b) Cellular Automata 

ESn zellularer Automat ist eine Sammlung von iden- 
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gorithmen ermdglicht hat, sind die Konsequenzen und 
Mdglichkeiten, die sich durch interagierende Funktiona- 
litat fQr hChere Organisation ergeben, bisher weitge- 
hend unverstanden. Es wurden zahlreiche Versuche, die 
5 flber eine einfache Duplikation herausgingen, unter- 
nommen, urn die essentielle Logik der funktionalen In- 
teraktion zu erkennen, wobei Populationen molekularer 
Automaten verwendet wurden. Hier soli sowohl auf 
praktische als auch auf konzeptionelle Grande fur ein 
io Abweichen von der auf diesem Gebiet herkdmmlichen 
Software-Ausbildung und fur einen Obergang zu in der 
Hardware realisierten Konfigurationen mit vom An- 
wender programmierbaren VerknQpfungsfeldern (field 
programmable gate arrays ** FPGA) hingewiesen wer- 
Zellenanordnung ist auf einem Chip untergebracht is den. Dies erfordert ein Umdenken in der Design-Kon- 
und mehrere derartiger Chips sind in regelmaBiger zeption und der Methodik, birgt jedoch auch die Aus- 
(Matrix-)Form angeordnet und miteinander ver- sicht auf Verbesserungen der Geschwindigkeit auf das 
bunden. Auch die Zellenanordnung innerhalb der 10 6 -fache bei Populationen von bis zu 10 000 Ketten, so 
einzelnen Chips ist matrixfdrmig. Derartige Anord- daB ein Teil der Flexibility der Software-Ausbildung 
nungen konfigurierbarer Chips werden eingesetzt, 20 erhalten bleibt und konzeptionelle Vereinfachungen im 



tischen Automaten mit jeweils einer endlichen Zu- 
standszahl, die regelm&Big auf einem Gitter mit ih- 
ren Nachbarn gekoppelt sind. Ein relativ allgemei- 
ner zweidimensionaler zellularer Automat, der di- 
rekt im Hardware programmiert werden kann, 
kftnnte auch mit dem Designverf ahren hier gebaut 
werden. Die direkte Nachbarschaft wird in der neu- 
en Architektur durch Verbindungskanfile mit 
Rutschmdglichkeiten verallgemeinert Dadurch 
und mit Hilfe lokal verteilter RAM wird die Verar- 
beitung von Zeichenketten ermdglicht Dieses wird 
im Basisdokument genauer beschrieben. 
c) Ferner sind konfigurierbare Zellenanordnungen 
bekannt, wie z. R in W090/1 1648 beschrieben. Jede 



um z. B. anwenderbezogene Probleme zu ldsen. Je- 
de Zelle, jede Gruppe von Zellen oder jeder Chip 
dient dabei der Ldsung unterschiedlicher Teilpro- 
bleme der zu berechnenden Aufgabe. 

Z Herstellungsweise des Parallelrechners 

Chip Design ist noch mit erheblichem Aufwand ver- 
bunden. Ein Produktions-Test-Modifikations-Zyklus 



Design ermdglicht werden. Ein einfaches Pro totyp- De- 
sign soil im folgenden beschrieben werden, um die 
Ntitzlichkeit dieses Ansatzes und die Art der durch inn 
motivierten konzeptionellen Veranderungen darzustel- 
25 len. 

Die einfachsten evolutiven Modelle befaBten sich mit 
homogenen, gut gemischten Populationen von konstan- 
ter GrOBe, wie sie chemisch in einem DurchfluB-Misch- 
reaktor (continuous stirred flow reactor = CSTR) er- 
dauert in der Regel mehrere Monate, Programmierbare 30 reichbar sind. Die Selektion wird als Ergebnis der pro- 



Bausteine verkurzen zwar diesen Zyklus, sind aber we- 
gen ihrer geringeren Verpackungsdichte und der bis 
jetzt starren Architektur der Rechner noch nicht fur den 
ganzen Prozessorbau verwendet worden. In dem hier zu 
patentierenden Verfahren wird dagegen das Chip-De- 
sign-Problem fur Parallelrechner modular gel6st Eine 
tlber die Chipgrenze hinaus modulare Architektur be- 
schleunigt den DesignprozeB und ist so flexibel, daB 
Programmierer selbst innerhalb dieses Rahmens in we* 
nigen Minuten ein fur das Problem maBgeschneidertes 
Design implementieren kfinnen. Programmierbare Bau- 
steine, die Festlegung eines modularen Designprinzips 
und die Erzeugung von problemspezifischen Chip-De- 
signs mit Hilfe einer konventionellen Programmierspra- 
che ermfiglichen den neuen Weg. 

3. Neukonfigurierungsverf ahren 

Ein Verfahren zur Neukonfigurierung von FPGAs 
wird z. B. von der Firma XILINX angeboten. Mit einem 
Blockschaltbildeditor werden Anderungen im Design 
lokal und interaktiv vorgenommen. Automatische Parti- 
tion, Place and Route (PPR) Programme bestimmen das 
Einbetten der Logik auf dem FPGA. Dieses Verfahren 



portionalen Verdunnung zum Ausgleich des molekula- 
ren Produktionsaberschusses erreicht In einem weite- 
ren theoretischen Modell wurde versucht, die zur Evolu- 
tion erforderlichen Elemente auf das lokal physikalisch 
35 Wesentliche zu reduzieren und die funktionalen Effekte 
der molekularen Interaktion einzubringen. Es erfolgte 
eine sukzessive Relativierung der Rolle des Zufalls als 
der Quelle der Vielfalt, auf die die Selektion in der Evo- 
lution einwirken kann, sowie eine Neubewertung der 
40 Bedeutung von raumlichen Effekten in der Evolution. 
Beide genannten Entwicklungen sind erforderlich, be- 
vor ein Schritt hin zur FPGA-Technologie glaubwurdig 
sein kann. 

In einem nicht-interagierenden darwinistischen Evo- 
45 lutionsmodell gibt es zwei Gelegenheiten, bei denen 
normalerweise der Zuf all eine Rolle spielt: die Mutation 
an ausgew&hlten Stellen in den molekularen Sequenzen 
und bei der Auswahl von MolekOlen, die in der Popula- 
tion weiter bestehen sollen. Bei interagierenden Model- 
so len existiert ferner die zufallige Auswahl der aufeinan- 
derfolgenden Interaktions-Partner (ein bimolekularer 
ProzeB, der im allgemeinen ausreicht, um biochemische 
Reaktionen zu beschreiben). Im letzteren Fall hat es sich 
. als mdglich erwiesen, bei kettenkodierter Funktionali- 

hat jedoch zwei Nachteile, die es zu vermeiden gilt FQr 55 tit, Variationen implizit durch die unterschiedlichen 



Parallelrechner, wo das Blockschaltbfld eine sich wie- 
derholende Struktur aufweist, erfordern die sich wieder- 
holenden Editieroperationen die Kraft einer Program- 
miersprache, um effizient parallele Anderungen durch- 
zufQhrea 

Die gegenwfirtige Forschung auf dem Gebiet der auf 
Genetik basierenden funktionalen Selbstorganisation 
erfordert einen erheblichen Datenverarbeitungsauf- 
wand, um Populationen von interagierenden kettenko- 



Prozesse der bimolekularen Interaktion zu erzielen. Ein 
dynamischer MischprozeB in einem offenen GeftB ist 
als physikalische Basis fur die Auswahl von MolekOlen 
und deren Interaktionen ausreichend In der Physik ist 
60 heute allgemein bekannt, daB einfache deterministische 
nicht-lineare Systeme chaotische Dynamiken erzeugen 
kdnnen, und es wurde insbesondere ein Hartkugelmo- 
dell ausreichen, um eine lokale und selektive Randomi- 
sierung von angebrachten Ketten darzustellea Es wQr- 



dierten (string-encoded) Automaten zu simulieren. 6 5 de daher eine rein lokale deterministische dynamische 

Wfihrend die unabhftngige molekulare Selektion als ein Regel zur Beschreibung des evolutionaren Vorgangs 

logisches Skelett wohl verstanden wird und dies insbe- genQgen. Dies hatte ferner zur Folge, daB raumlich hete- 

sondere die Entwicklung evolutionftrer Optimierungsal- rogene Phanomene erstellt werden kdnnten. TatsSch- 
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lich wurde fur eine breite Gruppe von homogenen, sich 
entwickelnden, replizierenden Populationen festgestellt, 
daB sSmtliche kooperativen funktionalen Interaktionen 
sich gegenflber parasit&reren Ausbeuten als instabil 
herausgestellt haben, und die Frage der niumlichen He- 
terogenitat ist daher fur jegliche Modelluntersuchung 
kritisch. 

Die bisherigen ModeUerstellungsarbeiten haben zu 
einer Vielzahl kleiner, gruppenweise interagierender 
Automaten in Computersprachen wie C gefuhrt Die 
miteinander verbundenen Erfordernisse beziigiich ge- 
eigneter Populationsgrdfien (> 1000) und Generations- 
zahlen (>1000) zur Verdeutlichung von generischem 
Verhalten machen solche Simulationen in herkdmmii- 
chem Computerequipment zeitaufwendig. Oblicherwei- 
se bendtigt die Simulation von 1000 Ketten fur 1000 
Generationen bei einer RISC-Arbeitsstation mehrere 
Stunden Rechnerzeit Es besteht hier eine geringe Effl- 
zienz in der Verwendung von Computerbetriebsmitteln. 
Wie zuvor erdrtert, scheint es, daB Gleitpunktoperatio- 
nen zur Simulation der Evolution nicht unbedingt erfor- 
derlich sind. Zweitens sind die Prozessoren fur segmen- 
tierte Operationen, die Byte- oder Wortbegrenzungen 
beinhalten, optimiert, nicht jedoch fur Ketten variabler 
Lange. Drittens bestehen softwarebedingte und finan- 
zielle Schranken fQr die effektive Nutzung paralleler 
MaschineiL Viertens sind die hdheren Programmier- 
sprachen sowohl fiir serielle als auch fur parallele Ma- 
schinen dahingehend eingeschrankt, dafi sie eine grdBe- 
re Breite an Interaktionsschemata zulassen als fQr eine 
genetische Verarbeitung relevant sein konnen. 

Der Erfindung liegt die Aufgabe zugrunde, eine Vor- 
richtung zur Berechnung feinkfirniger parallelisierbarer 
Probleme zu schaffen und ein Verfahren zum Konfigu- 
rieren einer derartigen Vorrichtung anzugeben, bei der 
der Benutzer die Vorrichtung innerhalb einer kurzen 
Entwicklungszeit fur das zu l&sende Problem konfigu- 
rieren kann und die Berechnung des Problems mit der 
derartig konfigurierten Vorrichtung extrem geringe Re- 
chenzeit bendtigt 

Zur Ldsung dieser Aufgabe werden mit der Erfindung 
eine Vorrichtung mit den Merkmalen der AnsprOche 1 
bzw. 2 sowie ein Verfahren mit den Verfahrensschritten 
des Anspruchs 3 vorgeschlagen. Die Merkmale vorteil- 
hafter Ausgestaltungen ergeben sich aus den Unteran- 
sprtichen. Bevorzugte Verwendungen sind Gegenstand 
der Verwendungsansprtlche. 

SinngemiB macht die Erfindung von der Erkenntnis 
Gebrauch, einen Rechner hardwaremSBig derart teil- 
oder vorzukonfigurieren, daB der Anwender schnell und 
einfach den Rechner fur ein bestimmtes Problem einer 
Anzahl von Problemen (Problemkreis) optimal konfigu- 
rieren kann. Der Rechner ist also hardwaremaBig aus* 
gelegt, urn samtliche Probleme eines vorgegebenen 
Problemkreises ldsen zu konnen. Fur die mit dem Rech- 
ner bzw. der Vorrichtung zu ldsenden Probleme gilt, 
daB sie feinkornig und parallelisierbar sind sowie als 
eine Vielzahl miteinander verkoppelter diskretisierba- 
rer Prozesse beschreibbar sind. 

Vorzugsweise handelt es sich bei den einzelnen Lo- 
gikschaltungen um sogenannter anwenderspezifische 
Logikfelder (Field-Programable-Gate-Arrays — 
FPGAX die aus in Arrayform angeordneten einzelnen 
Logikzellen bestehen. Diese Logikzellen sind frei pro- 
grammierbar, womit das gesamte Array frei konfigu- 
rierbar ist Mehrere Logikzellen werden zu einzelnen 
LogikschaltungsblOcken, den sogenannten konfigurier- 
baren Logikbldcken oder CLB (Configurable Logic 



Block), zusammengef aBt 

Desweiteren ist erfindungsgemaB die synchrone 
Taktung samtlicher Eingfinge sfimtlicher Logikzellen 
s&mtlicher Logikschaltungsbl6cke vorgesehen. Damit 
5 werden die bei groBen Prozessornetzen mitunter auf- 
tretenden Timing-Probleme gelOst Die FPGA verfugen 
Qber interne Verbindungsstrukturen, die es eriauben, 
daB das an den Eingang des FPGA angelegte Taktsignal 
zeitgleich an sfimtlichen LogikzeUen anliegt 

io Ein weiteres Merkmal der Erfindung besteht darin, 
daB die Verbindungsmuster zwischen benachbarten 
CLB einer Logikschaltung (eines FPGA) regelm&Big 
und untereinander gleich sind. Werden mehrere FPGA 
verwendet, so setzt sich das benachbarte CLB verbin- 

15 dende Verbindungsmuster flber die Grenzen der FPGA 
fort DJl, daB CLB benachbarter FPGA genauso ver- 
bunden sind, wie die CLB ein und desselben FPGA. 

Die Erfindung basiert unter anderem auf der Erkennt- 
nis, verteilte Dekorrelation in vom Benutzer konflgu- 

20 rierbaren Logikschaltungen (namlich den FPGA's) fiir 
die GroBsimulation von Prozessen zu verwenden, die 
Zufallselemente erfordern. Verteilte Dekorrelation 
meint die Verwendung nicht korrelierter Bits von funk- 
tional getrennten aber benachbarten Digital-Schaltun- 

25 gen auf einem Chip zur Erzeugung quasi-zuf&lliger Si- 
gnale an jeder Stelle, um damit stochastische Prozesse 
zu simulieren. Da diese Signale rekonfigurierbar sind, 
kann ihre Auswahl zwecks Ausr&umung statistischer 
Vorgaben (statistical bias) optimiert werden. 

30 Ferner werden erfindungsgemaB verteilte RAM- 
Speicher mit paralleler Adressierung als Schieberegi- 
ster zwischen Prozessoren eingesetzt, um die Simula- 
tion grdBerer Ansammlungen von Objekten zu ermdgli- 
chen. Die Verwendung klirzerer RAM's mit heteroge- 

35 ner Adressierung erlaubt lokale Einfugungen und Strei- 
chungen bei der String-Verarbeitung. Die Verwendung 
fest gekoppelter synchroner Ein-Ausgangsdatenstr6me 
ermdglicht es, ein "once-off -Design- Prinzip* bei alien 
anwendungsspezifischen Verwendungen von Speichern 

40 einzusetzen. Die Speicher k6nnen auf den FPGA's 
selbst verteilt sein und/oder auf dazu bestimmten Spei- 
cherchips zwischen den FPGA's verteilt sein. 

SchlieBlich ist auch das Verbinden aller Daten- und 
Steuerbits in Schieberegistern zum (busbreiten) seriel- 

45 len nicht-destruktiven Auslesen des augenblicklichen 
Zustandes einer Berechnung oder Simulation mftglich. 
Der DatenfluB kann auf einen einfachen regul&ren Ver- 
schiebungsprozeB mit Defold-Voreinstellung der Pro- 
zessoren zum Auslesen reduziert werden. Der Zustand 

so der Prozessoren selbst, was lediglich einige wenige Bits 
erfordert, kann in lokalen Registern festgehalten wer- 
den, und zwar vor dem Auslesen, um fiir sp&tere Spei- 
cherungen oder Einbindungen in Flipflop-Ketten 
zwecks Auslesens und Wiederspeicherns zur Verfflgung 

55 zu stehen. Diese leistungsf&higen Eigenschaften des 
Auslesens werden durch die Designregeln der synchro - 
nen Eingangs -AusgangskanSUe mdglich. 

SchlieBlich laBt sich auch die Erfindung zum lokalen 
Rerouting im DesignerstellungsprozeB fur modulare 

60 Designs zwecks drastischer Erhdhung der Designimple- 
mentationszyklen bei gleicher Zeitdauer einer konven- 
tioneUen Software (Editieren, Compilieren, Verbinden, 
Lauf en) einsetzen. 

Mit der Erfindung wird der Interaktions-EngpaB ver- 

65 mieden, indem ein neuartiges Hardwaredesign mit sich 
kontinuierlich schnell bewegenden Daten und rein loka- 
ler Interaktion verwendet wird. Es werden zur Illustra- 
tion ein zweidimensionaler Raum sowie binire Ketten 
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verwendet, bei denen die genetischen Sequenzen auf 
natttrliche Weise sowohl eine nahezu zufillige lokale 
mischende, als auch eine nahezu deterministische inter- 
aktive kopierende Funktionalitat kodieren, ohne stocha- 
stische Prozesse einzubringen. Im Grunde kollidieren 5 
molekulare Ketten an einer Anordnung von binaren 
Schaltpunkten, die deren Durchgang entsprechend dem 
gegenwfirtig nfichsten Kettennachbara steuem. 

Nachfolgend werden die erfindungsgemaBe Vorrich- 
tung und das erfindungsgemaBe Verfahren genauer be- 10 
schrieben. 

1. Rechnerarchitektur 

Auf eine Instruktionsmenge wird verzichtet Statt 15 
dessen ist der Rechner in eine Vielzahl kleiner Prozesso- 
ren unterteilt, die aufgrund der Verwendung von in 
Hardware programmierbaren Bausteinen selbst voliig 
neu konfigurierbar sind Jeder derartige Prozessor ist 
liber eine begrenzte, aber sonst frei w&hibare Anzahl 20 
von Bit-breiten Leitungen mit benachbarten Prozesso- 
ren verbunden. Die Nachbarschaft ist zunachst die eines 
zweidimensionalen Gitters. Abhlngig von dem Anwen- 
dungsproblemkreis sind aber auch andere Geometrien 
vorgesehen. Jeder soldier Prozessor verarbeitet syn- 25 
chron die Bitstrdme auf seinen Eingangsleitungen und 
erzeugt ununterbrochen synchrone BitstnOme auf sei- 
nen Ausgangsleitungen. Bei jedem Prozessor wird in- 
tern jeder Eingangsbitstrom vor der Weiterverarbei- 
tung in speziellen lokalen Schieberegistern zwischenge- 30 
speichert, die auch einem "random access" Zugriff erlau- 
ben. Die Prozessierung kann dabei von einer relativ 
langen Strecke der eingehenden Bitstrdme abhangen. 

Die Verbindungsstruktur von Eingangs- und Aus- 
gangsleitungen zwischen Prozessoren ist ebenfalis nicht 35 
von vornherein festgelegt, sondern lediglich eine be- 
grenzende Obermenge der fQr den Problemkreis gefor- 
derten Verbindungea Die Verbindungsstruktur zwi- 
schen Prozessoren innerhalb eines Chips wird fortge- 
setzt zwischen Prozessoren, die sich an nahestehenden 40 
Seiten unterschiedlicher Chips befinden. FOr die Verbin- 
dung von Prozessoren, die sich nicht auf demselben 
Chip befinden, mtissen nicht wieder konfigurierbare 
Leitungen gelegt werden. Die vorhandenen festen Lei- 
tungen mtiBten alle im Problemkreis zu realisierenden 45 
Verbindungsmuster zwischen Prozessoren erlauben. 
Dieses ist mdglich durch programmierbare Bausteine, 
solange eine Obermenge der gewflnschten Verbindun- 
gen f est verdrahtet ist 

Ein Bruchteil der gesamten Ein- und Ausgange wird 50 
zusft tzlich auf einem (z. B. 32 oder 64 Bit breiten) Daten- 
bus eines seriellen oder nur grobkornig parallelen Host- 
rechners geftthrt Die Taktfrequenz des DMA (Direct 
Memory Access) Schreib-Lese Zyklus dieses Hostrech- 
ners bestimmt die Frequenz des synchron getakteten 55 
Parallelrechners. Eine Taktfrequenz urn 25MHz ist mit 
jetziger Technologie durchaus erreichbar. Eine Kopp- 
Iung mit Graphikprozessoren ist zur direkten Visualisie- 
rung auch mdglich. 

In den f Or den Prototyp benutzten Field Progamable 60 
Gate Arrays (FPGAs) muB die Architektur das Herstel- 
len des Anfangszustandes des verteilten Speichers er- 
laubea Hier wird eine Defaultschaltung fttr die Prozes- 
soren mit einem gesonderten Reset-Schalter aktiviert, 
die die Prozessoren in einfache Schieberegister umwan- 65 
delt Der aktuelle Stand des Rechners kann auf gleiche 
Weise ausgelesen werden. Die Zustfinde aller interner 
Flip-flops (Register) ktanen sowohl beim Start einer 



Berechnung bestimmt werden als auch zwischendurch 
ausgelesen werden. 

Um die Taugiichkeit dieser neuen Architektur zu de- 
monstrieren, ist im Basisdokument die genaue Spezifi- 
kation eines Ein-Chip Prototyp-Rechners, der fQr den 
Evolutionsbereich gebaut wurde, prazisiert Plane ffir 
eine Erweiterung dieses Rechners um hundert Chips 
sind auch im Basisdokument vorhanden. Verschiedene 
modulare Aufteilungen eines Chips in Module von 2 bis 
12 Konfigurationseinheiten sind auch dort aufgezeich- 
net, um die allgemeine Gtlltigkeit der Architektur zu 
zeigen. 

2. Vorgang zum Bau eines einem vorbestimmten 
Problemkreis gewidmeten bzw. an diesen bzgL seiner 
Hardware angepafiten Parallelrechners 

a) Man identifiziere fQr ein Problembeispiel die Da- 
tenstrdme, die die einzelnen Vorgange (Prozesse) 
koppeln. Diese bilden dann eine bestimmte Anzahl 
von bitbreiten Ein- und Ausgangen. Man faBt un- 
terschiedliche Problembeispiele zu einem Problem- 
kreis zusammen und untersucht, ob es filr diesen 
Problemkreis eine Obergrenze bzw. Obermenge 
von zur Losung der Probieme erforderlichen Pro- 
zesse gibt Wenn nicht, muB man entweder das Ver- 
fahren beenden oder nach einfacheren Vorgangen 
in den Problemen oder nach kleineren Problem- 
kreisen suchen, 

b) Man bestimme die Geometrie der Koppelung 
zwischen den einzelnen Vorgangen, typische Bei- 
spiele sind ein-, zwei- oder dreidimensionale Gitter 
oder der Hyperkubus. Wenn es keine Geometrie 
gibt, die alle jene spezifischen Problemgeometrien 
durch Streichen von Verbindungen als Subgeome- 
trien enthalten, dann kann dieses Verfahren einen 
einzigen Parallelrechner fUr den Problemkreis 
nicht lief era. 

c) Mit Hilfe eines Blockschaltbildeditors entwerfe 
man einen Schaltkreis, der die lokale Prozessierung 
fDr ein bestimmtes einjfacheres Problembeispiel be- 
schreibt Man lasse dieses Design (mit Hilfe eines 
automatischen "Place and Route w -Programms) in 
eine FPGA Teilkonfiguration konvertieren und 
verpacke das Design in die kleinstmOgliche kom- 
pakte Teilform aus der Abbildung N des Basisdo- 
kuments. 

d) Man wahle eine der optimalen Verpackungen 
dieser Prozessoren aus. Abhangig von der Prozes- 
sor- und Chipgr6Be sind zwischen 16 und 1024 Pro- 
zessoren pro Chip m6glich. Man zahle die Ein- und 
Ausgange, die zwischen den verschiedenen Chips 
notwendig sind, um diese Prozessorverbindungs- 
struktur Qber derChipgrenze hinaus zu realisieren. 

e) Auf "Printed Circuit Boards" verlege man Leitun- 
gen, um die Obermenge der in Punkt 2d) bestimm- 
ten Verbindungen fUr die verschiedenen Probieme 
des Problemkreises zu realisieren. ZusStzlich wer- 
den einige Clock- und Steuersignale zum Konfigu- 
rieren der Chips gebraucht 

f) Ein DMA Zugriff wird auf einen Datenbus des 
Hostrechners angeschlossen. Die ausgewahlten 
Eingfinge sollten zum Laden des Chips (siehe oben) 
und die ausgewahlten Ausgange zum Auslesen des 
verteilten Speichers geeignet sein. 

g) Man schreibe Interf acesoftware, um Probleman- 
derungen auf Kommandos des FPGA Designedi- 
tors abzubilden. Hier sind zum Beispiel Macros, die 
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aquivalente Anderungen auf alien Prozessoren her- 
vorrufen, besonders von Nutzen. Die Chipgrenzen 
kdnnen auch transparent gemacht werden, so daB 
die Verbindungsstruktur leicht in Software zu fln- 
dern ist 5 

Erlauterungen zum Verf ahren 

FPGAs (Field programmable gate arrays) bilden die 
Bausteine dieses neuen Designverfahrens, Diese an sich io 
bekannten Chips sind wiederholt konfigurierbar und be- 
stehen u. a. aus einem quadratischen Gitter kombinato- 
rischer Logikbldcke (die mehrere Gatter imd Speicher- 
elemente enthalten) und einem verbindenden Netz von 
programmierbaren Leitungen (Interconnect-Ebene mit 15 
programmierbaren Schalter-Matrixen). Das hier vorge- 
stellte Designkonzept macht Gebrauch von einem re- 
gelrMBigen Gitter von ca. 100 dieser Chips. Die Aufga- 
be jedoch, ein funktionierendes Design fur nur einen 
solchen Chip zu entwerfen, birgt normalerweise u.a. 20 
komplexe Probleme bei der zeitlichen Abstimmung. 
Selbst das Aquivalent eines effizienten automatischen 
Compilers fflr serielle Probleme ist noch nicht denkbar. 
Weiterhin fordert das Problem der Kommunikation 
zwischen Prozessen, die auf den verschiedenen Chips 25 
laufen, jedesmal eine gesonderte und schwierige Be- 
handlimg. 

Die beiden Probleme von Design und Kommunika- 
tion werden erf indungsgem&B geldst durch das hier vor- 
gestellte Verfahren. Die Losung basiert auf kleinen desi- 30 
gnenden Schaltkreisen, die einfach durch Hardware- 
Programmierung zu entwerfen sind und so klein sind 
wie die kleinsten ProzeBeinheiten der zu ldsenden Pro- 
bleme des Problemkreises. Viele solcher Einheiten wer- 
den symmetrisch in jeden Chip verpackt Kommunika- 35 
tion erfolgt aber die Wiederholung eines lokalen Mu- 
sters von Verbindungslinien zwischen diesen Einheiten. 
Die Architektur der festen Interchipverdrahtung spie- 
gelt eine Obermenge dieser lokalen Struktur wider, am 
verschiedene Probleme innerhalb desselben Kreises zu- 40 
zulassen. Die ganzen Einheiten werden synchro n getak- 
tet und so gebildet, daB sie stetig alle Ein gab en ihrer 
Nachbarn in einem lokalen Speicher aufnehmen kdn- 
nen. Auf diese Weise werden die sonst schwierigen 
Kommunikationsprobleme beseitigt 45 

Die hier angebotene Losung liegt schon sehr dicht an 
der Idealldsung, jedes Problem direkt auf Silizium zu 
verwirklichen, die sich anbieten wtirde, wenn Multi- 
Chip-Design einfach w&re. Ein Prototyp eines solchen 
Rechners ist fur Evolutionssimulationen vom Erfinder 50 
bereits gebaut worden. 

3. Verfahren zur Neukonf igurienmg 

Die Neukonfigurierung von Parallelrechnern mit der 55 
im Punkt 1. erw&hnten Architektur ist erfindungsgemiB 
mit einer klassischen Programmieraufgabe vergleich- 
bar. 

a) Editieren 60 
Mit Hilfe einer hdheren Computersprache wie z, B. 
der Sprache C wird die systematische Benennung 
von Netznamen (der entsprechende Begriff zur Va- 
riablen in konventioneller Programmierung) ge- 
macht Systematische Anderungen, entweder in 65 
den Modulen selbst oder in ihrer Verbindungs- 
struktur, sind dann Uber programmerzeugten De- 
signmodifikationskommandos, die in Makrodateien 



690 Al 

10 

zusammengefaBt werden kdnnen, effizient durch- 
zufQhren. 

b) Compilieren 

Auf diese Kommandodatei sowie die ursprOngliche 
Designdatei kann dann von einem Optimisierungs- 
Routeprogram (vom FPGA Hersteller) zugegriff en 
werden, urn eine neue Designdatei fur jedes der 
FPGAs zu erzeugen. Der Benutzer mufi lediglich 
die lokalen Anderungen in der Verbindungsstruk- 
tur oder Logik eines Moduls spezifizieren, urn ein 
neues Gesamtdesign zu erstellen. Aus den De- 
signdateien fur die FPGAs werden automatisch an- 
hand von FPGA Hersteller Software ladbare binfi- 
re Dateien erzeugt 

c) Laden 

Diese Bin&rdateien werden flber die oben in Punkt 
3.a) beschriebene Busstruktur parallel oder seriell 
zu dem Parallelrechner geschickt 

d) Lesen 

Die Ergebnisse kdnnen entweder direkt aus dem 
verteilten Speicher gelesen werden (durch einen 
von FPGA Hersteller initiierten Readbackpulses) 
oder dynamisch iiber Datenleitungen, die die Rech- 
nerstruktur an entscheidenden Stellen abtasten. 

Nachfolgend wird anhand der Figuren die Erfindung 
anhand eines AusfOhrungsbeispiels eines Genetikpro- 
zessors ndher erl^utert 

Kurzbeschreibung der Figuren 

Fig. 1 Programmierbare Verbindungseinrichtungen. 

Die Darstellung zeigt eine Ecke eines XILINX 4000 
LCA-Chip (Logic Cell Array) und die erhaitlichen pro- 
grammierbaren Verbindungen zwischen den CLB (Con- 
figurable Logic Block) und den 10-Bl5cken (Input/Out- 
put-Bl6ckenX Dekodern und Puffern. Die hohe Dichte 
der mdglichen Verbindungen in den Schaltmatrixen, die 
ein regelmaSiges Gitter zwischen den CLB bilden, ist 
besonders aufftllig, jedoch zeigen die zahlreichen Punk- 
te auch programmierbare Verbindungspunkte (Progra- 
mable Interconnection Points — PIP). 

Fig. 2 CLB-Konfiguration als Logik oder Speicher. 

Hierbei handelt es sich urn eine Reproduktion aus 
dem XILINX Serie XC-4000 Datenbuch. Die Konfigu- 
rationslogikbldcke der XILINX Serie 4000 weisen 2 
programmierbare Funktionsgeneratoren zur Imple- 
mentierung einer arbitraren Boole'schen Funktion mit 4 
Variablen auf. Diese wird flber ein Tabellen-Nach- 
schlagschema implementiert, das nicht nur bei der Kon- 
figuration, sondern auch wahrend des Betriebs pro- 
grammierbar ist, so daB die Funktionsgeneratoren auch 
als RAM-Speicher verwendbar sind. Die CLB sind 
ebenfalls mit bei der Konfiguration programmierbaren 
Multiplexern versehen, die verschiedene Verbindungen 
zwischen den direkten und den (durch Flipflops) gehal- 
tenen Ausgingen und den Funktionsgeneratoren er- 
mdglichen. Ein dritter Funktionsgenerator verleiht dem 
CLB weiteres kombinatorisches Potential oder weiteres 
Potential als kombinierte RAM. Die Details der schnei- 
len Obertragungslogik, welche die effiziente Verwen- 
dung der CLB als Konstruktionsbldcke ftir Zahler und 
Addierer oder dergleichen erlauben, sind nicht darge- 
stellt 

Fig. 3 Einheitsstruktur und IO fur den Genetik-Pro- 
zessor. 

Diese Darstellung betrifft die lokale Verbindungs- 
struktur fur 4 • 4 Einheiten des Genetik-Prozessors (wo- 
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bei 164 CLB dargestellt sind). Die r&umliche Isotropic Details finden sich in der nachfolgenden Beschreibung. 

wird bewahrt, indem 4 gedrehte Einheiten (xl, x2, x3, x4) Es sind femer die Ladebitstrompfade durch das Gitter 

kombiniert werden, urn eine ubergeordnete Wiederho- aus 4005-Chips dargestellt 

lungseinheit zu bilden, die in den gestrichelten Rechtek- Fig. 9 EinheitsgrdBen und Packung bei 14 • 14 CLB 

ken dargestellt ist Dieses Design paBt gut in den LCA- 5 LCA (4005). 

Chip 4003 der Firma XILINX, wahrend der LCA-Chip Es wird bei den Einheitsmustern davon ausgegangen, 

4010 100 = 5 • 5 • 4 Einheiten (400 CLB) aufnehmen daB jede LCA ein identisches Format hat Die 

kann. Die diagonalen Verbindungen zeigen das Proto- (2 • 2)-WiederhoIung ist daher erforderlich, urn alternie- 

typ-Interaktionsschema fur die Schaltsteuerung. rende I/O-Richtungen zu ermdglichen, wodurch Isotro- 

Flg. 4 Design der Prototyp-Genetik-Prozessorein- 10 pie sichergestellt ist Bei den komplexesten Designs (3 

^ e ^ L und 5) mussen 4 Varianten der Grundeinheit geroutet 

Die Figur zeigt ein Design einer 4-CLB-Prototyp-Ein- werden. 
heit mit 4 Eingfingen und 2 Ausg&ngen. Das Design 

verwendet einen 2-Ketten-Speicher (FIFO) mit geneti- 3:4 • 4 • (2 • 2) • 3 - 643-CLB-Einheiten 

scher Steuerung des Informationstransfers von il, i2 15 4:3*3* (2*2)* 4 = 36 4-CLB-Einheiten 

nach ol f o2 Ober den Schalter SW1. Der Schalter weist 5:3 * 3 • (2 • 2) • 5 = 36 5-CLB-Einheiten 

vier Stellungen auf und es erfolgt eine interne und exter- 9: 2 • 2 • (2 • 2) » 9 « 16 9-CLB-Einheiten 

ne Steuerung, wenn geschaltet wird Eine Adressierung 12: 2 * 2 * (2 • 2) * 12 = 16 12-CLB-Einheiten. 

wird durch 4 soicher Bldcke aus einem einzelnen globa- Fig. 10 Lokale Adressenerzeugung mit EinfQffun? 

len zyklischen AdreBzyklus 00001001 10101 1 1 1 erzeugt, 20 und L6schen. 

wobei ein Flipflop in der Steuerung (CTL) jedes Blocks Diese Zwei-CLB-Konfiguration erzeugt eine lokale 

verwendet wird Adresse fur eine separate Schreibpositionierung und ist 

Fig. 5A, 5B 5C und 5D CLB-Designs far die Genetik- ferner in der Lage, diese Adresse in einem einzelnen 

Prozessoreinheit Taktzyklus urn zwei zu verzogern oder vorwarts zu be- 

Die CLB-Einheit gemiB Fig. 4 besteht aus den BIdk- 25 wegen, wodurch Einfugen und Lfischen in dem ausge- 

ken KAM, MEM, CTL und SWL Die ersten beiden CLB, henden Bitstrom moglich sind 

nimlich RAM und MEM (Flg.5A und 5BX dienen als Die nachfolgende Beschreibung ist wie folgt unter- 

zwei Schieberegister und der dritte CLB, namlich CTL teilt: Im Abschnitt 1 wird die Beschaffenhek einer Fami- 

(Fig. 5CX steuert die Funktion des vierten CLB, namlich lie von gegenwSrtig erhiltlichen FPGA dargestellt, und 

SWI (Fig. 5D), der em genetischer Schalter fur die bei- 30 zwar die Serie 4000 der Logic-Cell-Arrays (LCA) der 

S^T^Tt^ , ^ „ Firma XILINX * ta Abschnitt 2 wird das verwendete 
Fig. 6 LCA-LeitungsfQhrung fur den Genetik-Prozes- Prototyp-Design beschrieben. Im Abschnitt 3 wird die 
sor-Prototyp. Entwicklung einer ausreichend flexiblen Parallel- Pro- 
Die Darstellung zeigt die "Verdrahtung" des LCA- grammierumgebung zur Modellerstellung mit einer fe- 
Prototyp-Designs zum Zeitpunkt des Einschreibens. 35 sten Zahl von LCA erortert Im Abschnitt 4 wird ein 
Diese Verdrahtung ist mit Fig. 3 zu vergleichen. Die in generischer genetischer Prozessor, der diese Methodik 
Fig. 5 dargestellten 4 CLB, welche die Grund-Funk- verwendet, vorgestellt SchlieBlich wird im Abschnitt 5 
tionsemheit bilden, sind wie in Fig. 4 angeordnet Dieses die Art der Simulationsexperimente, die mit dieser Art 
7i e vT^ U ^ Chema Wird 411101113115011 durch <*e* XI- von Computer durchfuhrbar sind, sowie die M6glichkeit 
LINX-Optimierungs-Leitungsfuhrer gemiB einem 40 des Restrukturierens erdrtert, urn einen KompromiB 
halbautomatischen Verfahren zur CLB-Einfuhrung und zwischen PopuIationsgrdBe und Rechnergeschwindig- 
zur Netzbenennung unter Verwendung des grundlegen- keit zu erhalten. 
den 4-CLB-Makros durchgeftlhrt Die beiden mittleren 

Reihen und Spalten der CLB werden bei diesem De- 1. Die XILINX LCA 4000 Serie 

monstrations-Design zur Erzeugung der globalen 1-Bit- 45 

Adressensequenz, der Bitstrdme, mit welchen die Ein- Die Logikzellenanordnungen von XILINX sind auf 

neiten zu Anfang geladen werden, der Logik zum Ab- CMOS VLSI Technologie basierende anwenderpro- 

trennen von dieser LadequeUe und einiger anderer, we- grammierbare Logikfelder. Der Ausdruck "program- 

niger wichtiger Anzeigeverbindungsaufgaben, die fOr 11116^3^ bezieht sich auf die Tatsache, daB die Schal- 

em endgtlltiges Design nicht erforderlich sind, verwen- 50 tung geringster Ordnung auf multipotente Weise kon- 

L r> t> struiert ist, die durch das Konfigurieren zahlreicher in- 

Flg. 7 Genetik-Prozessor auf emer XILINX-Demon- terner Speicherzellen (z. B. 178096 bei dem grCBten ge- 

strationsplatte. genw&rtig erhiltlichen LCA, dem XC-4010) naher spezi- 

Die Darstellung zeigt die Pinverbindungen und deren fizierbar ist Diese spezifizieren sowohl eine Vielzahl 

Bedeutung in dem Fall, daB der 4003 LCA-Chip mit dem 55 logischer Elemente als auch deren Verbindungen- pri- 

Design des Genetik-Prozessoreinheit-Prototyps gela- mtr die Anordnungen der konfigurierbaren Logikbldk- 

den 1st Dip-Schalter auf der Demonstrationsplatte steu- ke (CLB) und der Schaltmatrixen. Darfiber hinaus er- 

ern den Abtrenn- und Schalter-RQcksetz-HalteprozeB, mdglichen Input-Output-B16cke (IOB) und breite De- 

wihrend LED und segmentierte Anzeigen zur Angabe tektoren eine programmierbare Kommunikation mit 

der Bin&rzustande verschiedener reprftsentativer Signa- 6 o den externen Pins des Chips, und programmierbare Ver- 

le verwendet werden, die zwei kollidierende Bitstreme bindungspunkte (PIP) und Dreizustands-Puffer (TBUF) 

und den Zustand des genetischen Schalters an einem spezifizieren die Art der Verbindung zwischen den ge- 

« 1 o T rLC ^ CmSGhll t? en * nannten Elementen, wobei eine Vielzahl von zusatzli- 

Fig. 8 Interface zum Host-Speicher als Strdmungsre- chen lokalen und globalen Verbindungsleitungen (Lei- 

ak !?. r * . . t , „ 65 tungen mit einfacher LUnge, Leitungen mit doppelter 

Die Figur zeigt em schemauschdargesteUtesInterfa- L&nge, horizontale und vertikale Langleitungen und 

oe, das erreicht wird, mdem die Grenz-Bitstromverbin- globale Leitungen) verwendet wird. In den Ecken des 

dungen zu einem Host-Bus gedffnet werden. Weitere Chips befinden sich eine Anzahl zusatzlicher spezieller 
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Strukturen, von denen insbesondere einige zur Steue- 
rung der seriellen Programmierung, des Starts und der 
Wiederholfunktion des Chips verwendbar sind Die in 
einem Teil der LCA verfflgbaren Mittel sind in Fig. 1 
dargestellt Ein Seriell-Konfigurationsprogramm (das, 
wie in Abschnitt 4 dargelegt, mittels eines dem Kompi- 
lieren verwandten Vorgangs erzeugt wird) kann aus ei- 
nem herkSmmlichen PROM-(programmierbaren Lese- 
speicher)-Chip oder von einer Platte uber einen Stan- 
dard-PC oder eine Workstation geladen werden. 

Die CLB kdnnen entweder als logische Elemente 
oder als KAM (Direktzugriffsspeicher) oder als Kombi- 
nation aus beiden programmiert sein, wie in Fig. 2 ge- 
zeigt Als logisches Element enthait der CLB zwei unab- 
hangige Funktionsgeneratoren (F und G) mit 4 Eing&n- 
gen und einen dritten Funktionsgenerator (H) mit drei 
Eingangen, die AusgSnge von F und G und einen neun- 
ten extemen Eingang. Diese drei Funktionsgeneratoren 
sind derart programmierbar, daB jegliche Boolesche 
Funktion ihrer Eingfcnge realisierbar ist Jeder dieser 
drei AusgSnge oder ein zehnter Eingang ist mit den 
beiden direkten AusgSngen des CLB verbindbar oder 
durch einen der beiden Flipflops (Einzelbitspeicherung) 
in dem CLB leitbar, die als weitere externe Eing&nge des 
CLB mit Takt-, SetzVRucksetz- und Freigabe-Steuerun- 
gen verbunden sein kdnnen. Dartiber hinaus ist der CLB 
mit programmierbarer schnellverarbeitender Logik 
versehen f die die Verwendung schneller Zahler und der- 
gleichen uber mehrere CLB erm6glicht Als Speicher- 
element kann der H-Funktionsgenerator verwendet 
werden, urn die Verwendung von F und G entweder als 
separate 16-Bit-Speicher (wobei die 4 Eingfcnge als 
AdreSleitungen agieren) oder als kombinierter 32-Bit- 
KAM zu steuern. (Als zwei separate Speicher wird der 
Schreibzugriff fttr beide jedoch von einem einzelnen 
Schreib-Freigabesignal gesteuert) Die ausgelesenen 
Bits kdnnen wie zuvor dargelegt sowohl direkt als auch 
durch die Flipflops ausgegeben werden. Dieses Merk- 
mal ist ein wesentlicher Fortschritt der Serie 4000, da es 
das Potential einer programmierbaren dichten paralle- 
len Datenverarbeitung unter Verwendung verteUter 
Speicher ermoglicht Die Wiederholungsfunktion liefert 
eine Seriell-Bitsequenz mit den gegenw&rtigen Zust&n- 
den sSmtlicher Flipflops, einschliefllich der in den IOB 
nicht erwahntea Der Inhalt wird bei der Initiierung der 
Wiederholfunktion kopiert, so daB eine normale LCA- 
Verarbeitung parallel zu der Wiederholfunktion ablau- 
f en kann. Jedoch werden die Inhalte der als KAM ausge- 
legten CLB nicht kopiert, so daB der Benutzer die 
Schreib-Freigabe fOr alle KAM, deren Werte bei der 
Wiederholfunktion bendtigt werden, synchron herun- 
terziehen muB. 

Die LeitungsfQhrung der Benutzerverbindungen, die 
Verwendung der Schaltmatrixen und der genannten 
Verbindungseinrichtungen, erfolgt zu einem groBen Teil 
automatisch mit einem Optunierungscode, der ein simu- 
liertes Ausheilen beinhaltet, jedoch muB die Verteilung 
bestimmter hoher Fan-Out-Signale, einschlieBlich der 
Taktsignale und der zuvor erwihnten Schreib-Freigabe, 
auf die Verwendung globaler Leitungen beschrSnkt 
werden, urn mit ubermStBiger Belastung einhergehende 
grdBere Zeitverzdgerungen zu vermeiden. Diese Lei- 
tungsfllhrung kann ebenfalls als eine compiler-Shnliche 
Funktion angesehen werden. Es sei darauf hingewiesen, 
daB der eine LCA-Chip durch den Benutzer mittels ei- 
ner Seriell-Bitsequenz reprogrammierbar ist, um zahl- 
reiche verschiedene Logikschaltungen zu implementie- 
ren. Die Bitsequenz ist das Ergebnis der Kompilierung 
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einer Design-Datei, die ihrerseits das Ergebnis des Rou- 
tens der von dem Benutzer eingegebenen Spezifikatio- 
nen bezQglich Logik und Verbindungen ist. Es sind keine 
zusStzlichen Modifikationen der Hardware erforderlich, 
5 vorausgesetzt, das Design stellt keine neuen Anforde- 
rungen an externe Einrichtungen, wie zum Beispiel 
Drahtverbindungen zu den IO-Pins des Chips. Weitere 
Einzelheiten finden sich in den XILINX Teile-Spezifika- 
tionsangaben. 

10 

2. Design-Prototyp fur die Genetik-Datenverarbeitung 

Genetische molekulare Sequenzen werden modell- 
haft als binare Ketten variabler L&nge dargestellt Zu- 
15 nachst sei darauf hingewiesen, daB die Subsequenz 00 
als Separator zur Markierung der LGcken zwischen den 
Ketten verwendet wird Die Ketten sind in Schieberegi- 
ster eingebettet, die in einem regelm&Bigen Gitter in der 
gesamten LCA eingebettet und paarweise an einer 
20 Knotenpunktanordnung verbunden, die als genetische 
Schalter bezeichnet werden. Der DatenfluB der Ketten 
durch die Schieberegister und die Schalter ist konstant 
die Taktgeschwindigkeit (die bis zu 3 • 10 7 Bits/sek be- 
tragt). Die Schalter steuern einfach die Art und Weise, in 
25 der von zwei konvergierenden Schieberegistern einge- 
hende Bits auf die beiden divergierenden Schieberegi- 
ster verteilt werden. Das Muster des Datenflusses im 
vorgegebenen Schalterzustand ist in Fig. 3 dargestellt. 
Dieses wird gew&hlt, um die Schieberegister anfenglich 
30 zu laden und um raumliche Symmetrie wahrend des 
freien Schaltens zu bewahren. Bei der einfachen Proto- 
typversion erreicht entweder einer der beiden oder bei- 
de eingehende Bitstrome die beiden ausgehenden Str6- 
me (Kopie oder Auslagerung), und der Schalter steuert 
35 ferner, welcher der beiden Eingangsstrdme die Ausgan- 
ge erreicht Somit weist der Schalter 4 Zustande auf, die 
von zwei Flipflops gesteuert werden. Verinderungen im 
Zustand des Schalters treten nur auf, wenn die Schalter- 
Flipflop-Taktgebung freigegeben wird. Bei dem Proto- 
40 typ-Design ist die Freigabe aktiv, wenn beide Eingangs- 
strdme eine Lflcke zwischen den Ketten (00 Subse- 
quenz) aufweisen, und der neue Schalterzustand wird 
sodann durch zwei Bits eines dritten benachbarten Bits- 
troms bestimmt (der Dateneingang der Flipflops). Wenn 
45 eine Obereinstimmung von 3 Bits zwischen den gegen- 
wHrtigen Bits in einem Eingangsstrom und denjenigen 
des dritten Nachbarn gegeben ist, wird der Schalter 
ebenfalls freigegeben. Letzterer ermdglicht das Schal- 
ten innerhalb von Ketten und somit eine breite Palette 
so von rekombinatorischen und mutativen Ereignissen, 
einschlieBlich des Teilens und des Verbindens. Es sei 
darauf hingewiesen, daB bei dem Prototyp- Design das 
Einfilgen oder Loschen einzelner Schritte in das bzw. 
aus dem Inneren der Ketten nicht zulissig ist Der Vor- 
55 teil dieses Designs ist, daB es einen einheitlichen einfa- 
chen Rahmen zum Mischen, Verst^rken und lokalen Se- 
lektieren schafft 

Eine quadratische lokale Einheit von 4 CLB genQgt 
zum Implementieren zweier 34-Bit Zwischenschalter- 
60 Kettensegmente, dem genetischen Schalter und dessen 
Steuerung. Das Block-Design dieser Einheit ist in Fig. 4 
dargestellt Zwei in den Fig, 5 A und 5B dargestellte CLB 
(KAM und MEM) implementieren zwei benachbarte 
2 • 17-Bit- Schieberegister, welche die F- und G-Funk- 
65 tionsgeneratoren als Speicher und die Flipflops zum 
Speichern des 17ten Bits verwenden. Das Adressieren 
der 16-Bit-Speicher erfolgt in einem Zyklus mit 16 Takt- 
schritten, wobei pro Taktschritt ein Bit ausgelesen und 
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geschrieben wird Normalerweise wurde fur diesen trie von Bitstr8men zum Testen des Einzelchips erfor- 

Zweckein 4-Bit-Zfihler verwendet, jedoch ist ein Zyklus deriich. Die Details der Verbindungen und der Steuer- 

mit 16 verschiedenen 4-Bit-Axiressen auch durch konse- schalter, die bei diesem Demonstrations-Design ver- 

kutives Oberlappen von 4-Bit-Subsequenzen eines ein- wendet wurden, sind in Fig. 8 dargestellt. 
zelnen Bitstroms erzielbar und dies verringert die Zahl 5 Ffir das endgfiitige Design sind 100 der groBen Chips 

der Adrefisignale, die global durch den Chip zuverteiien (20*20) erforderlich, die auf einer Leiterplatte (PCB) 

sind, von 4 auf 1. Die verwendete Sequenz lautete verdrahtet sind, urn eine Population von 10000 Ketten 

00001001 10101 1 1 1 und wurde fiber einen ersten globa- mit einer durchschnittlichen Lange von 64 Bits zu errei- 

len Puffer von der Eeke des Chips zu jeder Gruppe von chen. 

4 lokalen Einheiten hin verteilt, wobei ein Flipflop aus 10 Die begrenzte PopulationsgrdBe dieses Genetik-Pro- 

jeder der 4 Einheiten zum Wiederherstellen der gegen- zessors kann teilweise dadurch behoben werden, daB 

wartigen 4-Bit-Adresse verwendet wurde. Ist dieses ein Offnen der geschlossenen Prozessor-Bitstrdme zum 

Prinzip einmal verstanden, so sind Shnliche Adressierva- Haupt-KAM-Speicher des Host-Computers mit varia- 

rianten leicht zu entwickeln. Der einzige Unterschied bier Bitbreite erfolgt In zwei Host-Buszyklen konnen 
zwischen den 4 lokalen Einheiten, welche die in Fig. 3 15 bis zu 32 Bits G'e nach Host-Bus) parallel in die LCA-An- 

dargestellte eigentliche LCA-Wiederholungseinheit ordnung ein- und ausgegeben werden. Eine groBe Popu- 

(niit8Kettenund4Schaltern)bilden ( liegtinderOrien- lation von 1 Million 64-Bit-Ketten (8MB) oder mehr 

tierungderEingangeundderAusgange. kann dann verarbeitet werden, indem die Speicher- 

Der Schalt-CLB (SWI) ist in Fig, 5D dargestellt Die adresse linear durch den Host-Speicher getaktet wird, 
beiden Flipflops weisen eine Rticksetzleitung auf, die 20 wobei die in die LCA eingegebenen Bits durch die von 

zum Halten des Schalters in dessen Vorgabeposition dieser ausgegebenen ersetzt werden. Je nach der Ver- 

wahrend des Initialisierens dienen, sowie eine Schreib- weilzeit der genetischen Ketten in der LCA sind zahlrei- 

freigabe, die, zusatzlich zu den von den oben bezeichne- che effektive PopulationsgrdBen erzielbar, indem die 

ten dritten benachbarten Bitstrdmen her kommenden Bitbreite des Interface variiert wird. Eine schematische 
Dateneingtagen, von dem Steuer-CLB (CTL) her kom- 25 Darstellung dieses Host-Interface ist in Fig. 8 darge- 

men. Einer der Strdme muB den H-Funktionsgenerator stellt 
durchlauf en, um sein Flipflop zu erreichen. Die Flipflops 

spezifizieren die 4 mdglichen Zustande des Schalters: 3. Programmierumgebung fur Hardware-Simulation 
l.SWAPl:00il-ol undi2— o2 

2.SWAP2:01 il — o2undi2— ol 30 Oblicherweise liegen zwischen dem Design einer 

3. COPY1 : 10 il — ol und il — o2 Schaltung und deren Implementierung Zeitraume in der 

4. COPY2:lli2— olundi2— o2. GroBenordnung von Monaten. Die optimierte Schal- 
Der Rest des CLB (die F- und H-Generatoren) wer- tung muB einer Chip-HersteUerfirma fibergeben wer- 
den zum Implementieren des Schalters verwendet, wo- den, die sie mittels einer Abfolge von photolithographi- 
bei jeder Funktionsgenerator einen Ausgang spezifi- 35 schen und chemischen Schritten mit einer Auflosung 
ziert Die vier Eingange der Funktionsgeneratoren sind von 1 Mikrometer auf ausgesuchte Silizium- Wafer auf- 
in beiden Fallen gleich: die beiden Eingangsbitstrome bringt Die Kosten eines solchen Entwicklungszyklus 
und die beiden Schalterzustandsausgange der Flipflops. sind hoch und nur durch groBe Verkaufsmengen identi- 

SchlieBlich verwendet der Steuer-CLB (CTL) von scher Chips abzudecken. Dies steUt das Entwicklungs- 
Fig. 5C einen Funktionsgenerator zum Untersuchen auf 40 hindernis ffir kundenspezifische Chips dar. Bei den 
eine doppelte LQcke in den beiden eingehenden Bitstrd- FPGA hat ein bestimmtes regelmaBiges und dichtes De- 
men (00 und 01 )und den anderen zum Untersuchen auf sign den genannten Entwicklungszyklus durchlaufen 
erne Zwei-Bit-Ubereinstimmung zwischen dem ersten und seine Schaltung weist Speicherzellen (Flipflops) auf, 
eingehenden Strom und dem benachbarten dritten deren binare Zustande fiber Transistoren das Offnen 
Strom. Ein Flipflop wird zum Aufzeichnen des vorheri- 45 und SchlieBen einer groBen Zahl von Verbindungen 
gen Zustands dieser letztgenannten Obereinstiramung zwischen Design-Komponenten (den PIP) und auch 
verwendet und sodann zusammen mit den Ausgangen kombinatorische Funktionen ermoglichen, welche eine 
von F und G zur endgfiltigen Entscheidung in der Logik Gruppe von Signalen und eine Ausgangsleitung verbin- 
von H zurfickgeleitet (2 aufeinanderfolgende Oberein- den (z. B, die F-, G- und H-Funktionen der Serie 4000 
stimmungen (d. Il, eine 3-Bit-Obereinstimmung) zwi- 50 von XILINX). Daraus ergibt sich, daB die Spezifikation 
schen dem ersten und dem dritten Bitstrom oder eine der Zustande dieser Speicherzellen den gleichen Effekt 
doppelte Lticke in Strom 1 und 2\ so daB das Schreib- hat, wie das Ausffihren einer sehr groBen Klasse von 
Freigabesignal eine Veranderung des Schalterzustands Schaltungsdesigns in Hardware, mit einer Verringerung 
ermoglichen kann. Das verbleibende Flipflop wird zur der erreichbaren Gatterdichte um etwa den Faktor 10. 
vorgenannten Adressendekodierung verwendet 55 Das Schaltungsdesign eines Chips der Serie 4000 wird 

Das Prototyp-Design wurde auf dem kleinsten Chip durch mehrere 10 000 Speicherzellen gesteuert. 

(4003) der Serie 4000 implementiert, ffir den eine De- SelbstverstSndlich kdnnen damit nicht alle Verbin- 

monstrationsplatine von XILINX zur Verfflgung stand. dungen spezifiziert werden. Die FPGA weisen eine re- 

Diese weist eine 10 • 10 Anordnung von CLB auf und gelmaBige Anordnung dichter lokaler Verbindungs- 

ermdglicht die Verwendung von 64 CLB ffir 16 zu 4 60 m6glichkeiten und eine begrenzte Anzahl schneller Ver- 

Gruppen verbundenen lokale Einheiten (32 34-Bit-Ket- bindungsleitungen groflerer Reichweite auf. Es wurde 

ten und 16 Schalter), wobei 2 CLB-breite vertikale und besonderes Augenmerk auf die Auswirkungen der pro- 

horizontale Streifen in der Mitte zum Testen und ffir grammierbaren Verbindungen auf die Ausbreitungszeit 

einf ache On-Chip-Erzeugung der globalen Steuerungen und den Spannungspegel der Binar- und der Dreizu- 

frei blieben (eine Off -Chip- LOsung wird ffir grSBere De- « standssignale gelegt, jedoch lassen sich diese Probleme 

signs vorgeschlagen). Die Leitungsf fihrung der LCA ist auf dieser Stufe nicht von dem Benutzer trennen. Ande- 

m Fig. 6 dargestellt Nur eine kleine Untergruppe der 84 rerseits ist es sehr einf ach, Programme in hdheren Com- 

Pins 1st zur Vervollstandigung einer toroidalen Geome- putersprachen zu erzeugen, die ebenfalls nicht funktio- 
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nieren. Es sind daher ein intelligentes Design-Eingangs- 
interface und ein intelligenter Compiler erforderlich, die 
Fehler in einem Design begrenzen und den Nutzen ei- 
nes Designs testen. Da das Produkt mit herkdmmlichen 
Chip-Designs konkurriert, wurde groBer Wert auf einen 5 
Design-Eingang mit herkommlichen CAE-Block- De- 
signverfahren gelegt Das Block-Design istjedoch v6Uig 
allgemein und muB spater an die Programmierein- 
schrankungen der LCA angepaBt werden. Der erfahre- 
ne Benutzer kann Beschrankungen in diesem ProzeB 10 
spezifizieren, jedoch hangen die Packungsdichte und die 
Geschwindigkeit (die maximale erzielbare Taktrate) des 
Designs oftmals von giobalen Gesichtspunkten ab, die 
den derzeit erhaltlichen automatischen Implementie- 
mngsprogrammen, z. B. dem von XILINX angebotenen 15 
PPR (Partion place and route) entgehen. 

In Ubereinstimmung mit dem Konzept der FPGA als 
regelmaBige Logikanordnungen erfolgte eine Be- 
schrankung auf Designs, die eine regelmaBige Wieder- 
holungseinheit beinhalten. Aufgrund der Symmetric des 20 
Chips ist das Problem der Optimierung auf die Zellein- 
heit dieser wiederholenden Designstruktur beschrankt 
Eine Hierarchie verschachtelter Designs, die verschie- 
dene kleinere Einheiten zu einer grdfleren Wiederho- 
lungseinheit kombiniert, kann ebenfalls in Betracht ge- 25 
zogen werden. Die Software von XILINX unterstfitzt 
bisher noch nicht anwenderdefinierte "harte" Makros, 
die das Aufbringen vollstandig optimierter und be- 
stimmter Subdesigns auf einem Chip ermSglichen, je- 
doch wird dies als imminent vorausgesetzt Bei regelma- 30 
Bigen Anordnungen von Subdesigns ist eine systemati- 
sche Bezeichnung von Netzen (Signalleitungen) im Sub- 
design erforderlich, urn Duplikationen von Bezeichnun- 
gen in internen Signalen zu vermeiden und eine syste- 
matische programrnierte Verbindung von Subdesign- 35 
Eingangen und -Ausgangen zu ermdglichen. 

Es wurden in C geschriebene Programme entwickelt, 
um das systematische Set von Netzverbindungsbefehlen 
zu schaffen, die zum Implementieren einer gewflnschten 
regelmaBigen Topologie, wie der des Prototyp-Designs, 40 
erforderlich sind. Es wurde ebenfalls ein in C geschrie- 
benes Programm entwickelt, um die erforderliche Se- 
quenz von "weichen'* Makrobefehlen zu erzeugen, die 
zur Anordnung der Subdesigns auf der LCA erforder- 
lich sind Da der XILINX LCA Design-Editor (XACT) 45 
das Aufrufen von Befehlsdateien erm6glicht, kann der 
Schritt von den kleinen Subdesigns zu regelmaBigen 
Anordnungen solcher Subdesigns automatisiert werden, 
wenn solche in C programmierten Befehlsdateien ver- 
wendet werden. Ein besonderes Verbindungsschema 50 
(Geometrie) kann sodann in der herkdmmlichen Simula- 
tions sprache spezifiziert und automatisch auf den Chip 
Qbertragen werden. Das Problem einer weitergehend 
automatischen Optimierung und eines soichen Testens 
der Subdesigns sei hier vernachlassigt, jedoch sei gesagt, 55 
daB ein Maximum von 16—25 CLB als die primitive 
Einheit fur diese Klasse von Computern angesehen 
wird XILINX liefert sehr ausgereifte Validierungskon- 
trollen beim Einfuhren von Designs, wenn gewiinscht, 
mit inkrementaler Leitungsfiihrung sowie eine De- 60 
signregel-Oberprttieinrichtung (Design Rules Checker 
— DRQ, die weitere Fehler auffindet Es existiert eine 
automatische Routine, welche die maximalen Verzdge- 
rungen fflr die Signalausbreitung zwischen Flipflops an- 
gibt, wodurch eine Bestimmung der maximalen Taktge- 65 
schwindigkeit und weitere Design-Optimierungen m6g- 
lich sind Eine Zeitgebungs-Simulation des Designs 
kann, wenn gewflnscht, ebenfalls in Software ausgefuhrt 



werden, wobei die herstellungsbedingten Verzdge- 
mngsspezifikationen zusatzlich zur Berechnung des Si- 
gnalausbreitungsverhaltens verwendet werden. 

Die Ausbreitung sich wiederholender Einheiten flber 
die Chipgrenzen hinaus erfordert das Einbringen der 
geometrischen Verteilung der Pins in das C- Programm, 
welches die logischen Verbindungen zwischen den Sub- 
designs an der Peripherie zu den IO-Pins des Chips 
herstellt Dies ist eine "Once-ofP-Aufgabe fur jedes Mit- 
glied der 4000-Familie. Die physikalischen Verbindun- 
gen zwischen den Chips mttssen durch eine PCB erfol- 
gen, d h, durch harte Verdrahtung; da jedoch die inter- 
nen Verbindungen den Subdesign-IO und den IO-Pins 
der Vorrichtung programmierbar sind genugt eine gro- 
Be Zahl paralleler Verbindungen zwischen entsprechen- 
den IO-Pins, um den allgemeinen Charakter der Wie- 
derholung der Designs von Einheiten Qber mehrere 
Chips aufrechtzuerhalten. Da nur benachbarte Chips . 
miteinander verbunden sind und eine minimale Auff§- 
cherung gegeben ist, sollten Verzdgerungen kurz genug 
sein, um die Taktgeschwindigkeit des Computers nicht 
zu beschranken. Es wurde ein C-Kode geschrieben, um 
den einer vorbestimmten angeordneten Subdesign-IO- 
Lextung nachsten Verbindungspin aufzufinden und die 
entsprechenden XACT-Verbindungsbefehle zu erzeu- 
gen. 

4. Ein allgemeiner genetischer Schalter 

In den vorangehenden Abschnitten wurde ein groBer 
Teil der allgemeinen Design-Strategie dargelegt In die- 
sem Abschnitt soil der allgemeine Charakter des Ansat- 
zes verdeutlicht werden, indem das Design einer geneti- 
schen Schaiteinheit mit separater Schreibadressierung 
(einem Schreibkopf) dargelegt wird, welche in Abhan- 
gigkeit von lokalen Bit-Sequenzcharakteristika (einer 
der beiden durch die Einheit laufenden Bitstrdme oder 
auch ein benachbarter Strom) schrittweise in bezug auf 
die Leseadresse bewegbar ist Eine Anordnung solcher 
Elemente, die Turing- Maschinen ahnlich sind erlaubt 
eine generelle Bearbeitung der eingebetteten geneti- 
schen Sequenzen, einschlieBlich des EinfUgens und L6- 
schens innerhalb derselben.Fig. 9 zeigt, wie Einheiten in 
der GrdBe von 3, 4, 5, 9 und 12 CLB gleichmaBig in der 
14 • 14 4005 LCA eingebettet werden kdnnen. Andere 
EinheitsgrdBen sind mit der 4005 LCA mdglich, wenn 
die Beschrankung beziiglich einer geraden Zahl von 
Einheiten pro Seite gelockert wird (dies wurde jedoch in 
der endgdltigen Anordnung alternierende Varianten 
des Designs fur benachbarte LCA erfordern, um raumli- 
che Isotropie sicherzustellen). In diesem Abschnitt wird 
eine Einheit mit 9 CLB dargelegt 

Es werden hierbei groBe Teile der Prototypstruktur 
beibehalten, welche die genannten 4 CLB betreffen 
(KAM, MEM, CTL und S WI), und die neue Struktur 
wird als Erweiterung eingebracht Die Schreibadresse 
muB lokal gespeichert sein (wobei 4 Flipflops und 1 
Funktionsgenerator in 2 CLB ausreichen), um die hier 
gewfihlte 4-Bit-Adresse zu erzeugen. Es wird die zuvor 
dargestellte normale rotierende Bitsequenz von Adres- 
sen verwendet Die Adresse zum nachsten Taktzeit- 
punkt kann gegeniiber der erwarteten nachsten Adresse 
inkrementiert oder dekrementiert werden, indem die 
Zahl der Taktimpulse an den Flipflops von 1 zu 2 oder 0 
verandert wird Die einfachste Art der Vorbewegung 
der Adresse um einen Schritt ilber die nachste Adresse 
hinaus ist die Verwendung eines Doppelfrequenztakts 
zur Erzeugung zweier Zyklen in diesem Teil der Schal- 
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tung. Das Freigabesignal an den Flipflops kann auf ei- 
nem niedrigen Pegel gehalten werden, um eine Aufda- 
tierung zu verhindern und somit eine relative Dekre- 
mentierung der Adresse von dem erwarteten nSchsten 
Wert aus zu bewirken. Jedoch ist es mdglich, diese zu- 5 
s&tzliche Funktion in die beiden CLB zu packen, die zur 
Erzeugung der lokalen Adresse ohne Verwendung eines 
Doppeifrequenztakts verwendet werden (welcher zu ei- 
ner Beschrfinkung der maximalen Operationsfrequenz 
fQhren kdnnte). Dies ist in Fig. 10 dargestellt Die 10 
AdreBbits 0 und 2 sind in einen CLB gepackt und die 
Bits 1 und 3 in den anderen. Die schematische Darstel- 
lung zeigt die Dichte, mit der sehr komplexe Funktiona- 
litUt ausgedrfickt werden kann. Eine Zwei-Bit-Zerle- 
gung des relativen AdreB-Schiebesignals (das erste Bit 15 
ffir ein Dekrement oder kein Dekrement, das zweite far 
ein Inkrement oder kein Inkrement, wobei das Dekre- 
mentieren Vorrang hat, da es mit der Flipflop-Freigabe 
verbunden ist). 

Das separate Lese- und Schreib-Adressieren eines 20 
Bitstroms wihrend dessen Durchlauf durch das zweite 
16-Bit-Register (in MEM) erfordert eine Doppeltaktfre- 
quenz, um den getrennten Lese- und Schreib-Zugriff zu 
ermdglichea Ein 8 :4-Bit-MUX ist zur alternierenden 
Auswahl zwischen den Lese- und Schreib-Adressen er- 25 
f orderlich. Es ist ffir den Fachmann leicht ersichtlich, wie 
dieser MUX in 2 CLB vorzusehen ist, so daB hier nicht 
n&her darauf eingegangen wird. 

Ein endgflltiger CLB kann verwendet werden, um die 
Abh§ngigkeit des Inkrementifer-StationSr-Dekremen- 30 
tier-Signals von den lokalen und den benachbarten Bits- 
trdmen zu erzeugen, wie dies bei der Steuereinheit 
(CTL) des Prototyps des genetischen Schalters gesche- 
hen ist Wahlweise ist ein einzelner Funktionsgenerator 
(H) mit drei Eing&ngen und ein Flipflop ausreichend, um 35 
den Halbfrequenztaktimpuls zu liefern, wenn dies zur 
Verbesserung der Stabilitfit erforderlich sein sollte. Die- 
se kdnnten in einen der beiden MUX-CLB gepackt wer- 
den. 

Das endgflltige Design der Einheit weist somit 9 CLB 40 
auf (KAM, geteilter R/W MEM, 2 ffir die Schreib- 
Adresse, 2 fQr den MUX, CTL, SWI und die Inkremen- 
tier/Dekrementier-Steuerung). Dies zeigt, wie eine er- 
hebliche neue Funktionalitfit des Einffigens und L6- 
schens von bis zu 16 Bit mit einbezogen werden kann, 45 
wahrend gleichzeitig relativ kleine Einheiten beibehal- 
ten werden. Die grundlegende Idee des geteilten 
Adressierens kann zur weiteren Erweiterung der Funk- 
tionalit&t verwendet werden. 

50 

5. Experimented Vorschl&ge f Or den 
Genetik-Prozessor 

Bei der sehr groBen Zahl von zu berticksichtigenden 
Generationen ist der Computer auf ideaie Weise geeig- 55 
net, Fragen der evolutiven Stagnation und Punktuation 
in ZeitmaBst&ben anzugehen, die mit der Evolutionsge- 
schichte auf der Erde vergleichbar sind. Insbesondere 
der schwierige Obergang von unabhlngigen Replikato- 
ren zu komplexen funktionell integrierten Komponen- eo 
ten hfiherer Organismen kann damit untersucht werden 
(zugegebenermaBen in der hier modellhaft konstruier- 
ten abstrakten logischen genetischen Welt), DarOber 
hinaus kdnnen Fragen der Langzeit-Optiroierung in in- 
teragierenden Systemen untersucht werdea Zun&chst 65 
mQssen die Mischeigenschaften der sequenzabh&ngigen 
Auslagerung in dem Prototyp-Modell und sodann die 
Populationsdynamik der rein replikativen Kopierfunk- 
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tionalitat untersucht werden, bevor die Variation und 
die Selektion im gesamten Prototyp untersucht werden. 
Bereits hier ergeben sich interessante Fragen bezuglich 
der Zeitskala ffir die Optimierung und die evolutionSre 
Stabilit&t 

Nachdem auf diese Weise das Interesse an solchen 
auf die Ebene von Giga-Generationen erweiterten logi- 
schen Evolutionsprozessen begrfindet ist, kdnnen nun- 
mehr andere biologisch relevante und komplexere In- 
teraktionsmuster untersucht werden. Andere Untersu- 
chungen der zahlreichen alternativen genetischen Inter- 
aktionsschem ata, die zur Untersuchung funktionaler In- 
teraktionen in der Evolution verwendbar sind, kdnnen 
sich anschlieBen. Der in dem vorhergehenden Abschnitt 
dargestellte, einem Turing-Schalter ahnliche genetische 
Schalter gibt eine Vorstellung von dem Komplexitatsni- 
veau, das in kleinen Subdesigns erzielbar ist 

Patentansp ruche 

1. Vorrichtung zur Berechnung von feinkdrnigen 
parallelisierbaren Problemen, die als eine Vielzahl 
miteinander verkoppelter diskretisierbarer Prozes- 
se beschreibbar sind, mit 

— mehreren programmierbare in Arrayform 
angeordneten benachbarten Logikschal tun- 
gen, die jeweils aufweisen 

— mehrere konfigurierbare Logikschal- 
tungsblocke, die aus regelmaBig angeord- 
neten Logikzellen zusammengesetzt sind 
und frei konfigurierbar sind, 

— mehrere programmierbare Schalter- 
matrizen zum regelmaBigen Verbinden 
der Logikschaltungsbldcke untereinander 
entsprechend der Schaltermatrix-Pro- 
grammierung, 

— mehrere programmierbare I/0-Bl6cke 
mit I/O-AnschlOssen zinn regelmaBigen 
Verbinden der mehreren programmierba- 
ren Logikschaltungen miteinander und 
zum Verbinden mindestens einer der Lo- 
gikschaltungen mit einem Host-Rechner, 

— wobei mehrere Logikschaltungsbldcke 
jeweils zu identischen Gruppen zusam- 
mengefaBt sind, von denen jeder eine be- 
stimmte im vornhinein vorgegebene, von 
der GrdBe der Gruppe von Logikschal- 
tungsbldcken abhSngige Anzahl von I/O- 
AnschlQssen zugeordnet sind, die zum re- 
gelmaBigen Verbinden von Gruppen von 
Logikschaltungsbldcken untereinander 
sowie zur Verbindung zweier Gruppen 
von Logikschaltungsblocken benachbar- 
ter Logikschaltungen zur Verffigung ste- 
hen, 

— wobei die Geometrie der Gruppen zu- 
sammengefaBter Logikschaltungsbldcke 
von Gruppe zu Gruppe gleich ist, 

— wobei die Verbindung zwischen den 
Gruppen von Logikschaltungsbldcken 
und die Verbindung zwischen den Logik- 
schaltungsbldcken der Gruppen jeweils 
gleich ist, 

— wobei die Verbindung zwischen den einzel- 
nen Logikschaltungen derart ist, daB die An- 
zahl von Verbindungen, die dem Benutzer auf- 
grund der Art der Gruppierung von Logik- 
schaltungsbldcken vorgegeben ist, maximal ist, 
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und die Verbindung von Gruppen von Logik- 
schaltungsblock-Gruppen benachbarter Lo- 
gikschaltungen gleich der Verbindung der 
Gruppen von Logikschaltungsbldcken ein und 
derselben Logikschaltung ist, und 5 

— einer Taktgeneratorvorrichtung, die derart 
mit den Logikschaltungen und deren Gruppen 
von Logikschaltungsbldcken sowie mit deren 
Logikzellen verbunden ist, daB die Taktung 
simtlicher Logikzellen global und synchron 10 
erfolgt 

2. Vorrichtung zur Berechnung von feinkomigen 
parallelisierbaren Problemen, die als eine Vielzahl 
miteinander verkoppelter diskretisierbarer Prozes- 

se beschreibbar sind, mit 15 

— einer programmierbaren Logikschaltung, 
die aufweist 

— mehrere konfigurierbare Logikschal- 
tungsblocke, die aus regelm&Big angeord- 
neten Logikzellen zusammengesetzt sind 20 
und frei konfigurierbar sind, 

— mehrere programmierbare Schalter- 
matrizen zum regelm&Bigen Verbinden 
der Logikschaltungsbldcke untereinander 
entsprechend der Schaltennatrix-Pro- 25 
grammierung, 

— mindestens einen programmierbaren 
I/O- Block mit I/O-AnschlQssen zum Ver- 
binden der Logikschaltung mit einem 
Host-Rechner, 30 

— wobei mehrere Logikschaltungsbldcke 
jeweils zu identischen Gruppen zusam- 
mengefaBt sind, von denen jeder eine be- 
stimmte im vornhinein vorgegebene, von 
der GrdBe der Gruppe von Logikschal- 35 
tungsblocken abhangige Anzahl von I/O- 
Anschlussen zugeordnet sind, die zum re- 
gelmaBigen Verbinden von Gruppen von 
Logikschaltungsbldcken untereinander 
zur Verf ugung stehen, 40 

— wobei die Geometrie der Gruppen zu- 
sammengefaBter Logikschaltungsblocke 
von Gruppe zu Gruppe gleich ist, 

— wobei die Verbindung zwischen den 
Gruppen von Logikschaltungsbldcken 45 
und die Verbindung zwischen den Logik- 
schaltungsbldcken der Gruppen jeweils 
gleich ist, 

— wobei die Verbindung zwischen den einzel- 
nen Logikschaltungen derart ist, daB die An- 50 
zahl von Verbindungen, die dem Benutzer auf- 
grund der Art der Gruppierung von Logik- 
schaltungsbldcken vorgegeben ist, maximal ist, 
und 

— einer Taktgeneratorvorrichtung, die derart 55 
mit den Gruppen von Logikschaltungsbldcken 
sowie mit deren Logikzellen verbunden ist, 
daB die Taktung samtlicher Logikzellen global 
und synchron erfolgt 

3. Verfahren zur Konfiguration einer Vorrichtung eo 
zur Berechnung von feinkdrnigen parallelisierba- 
ren Problemen, die als eine Vielzahl miteinander 
verkoppelter diskretisierbarer Prozesse beschreib- 
bar sind, bei dem 

— ein vorgegebener Kreis von zu berechnen- © 
den Problemen als eine bestimmte geometri- 
sche Anordnung von gleichen Gruppen von 
Prozessen dargesteilt wird, wobei die Prozesse 
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eines Problemkreises gleich oder unterschied- 
lich sind, 

— die Prozesse und die Verknupfung der Pro- 
zesse des Problemkreises identifiziert und de- 
finiert werden, 

— einzelne Prozesse zu Gruppen zusammen- 
gef aBt und diese Gruppen schaltungstechnisch 
durch Zusammenfassung und Verbinden meh- 
rerer programmierbarer Logikzellen zu Lo- 
gikschaltungsbldcken einer oder mehrerer Lo- 
gikschaltungen realisiert werden und 

— die einzelnen identischen Gruppen von Lo- 
gikschaltungsbldcken der Verknupfung der 
Prozesse des Problemkreises entsprechend 
verbunden werden, wobei diese Verbindungen 
von Gruppe zu Gruppe und innerhalb der 
Gruppen von Logikschaltungsblock zu Logik- 
schaltungsblock gleich sind. 

4. Verfahren nach Anspruch 3, dadurch gekenn- 
zeichnet, daB mehrere programmierbare Logik- 
schaltungen regelm&Big benachbart zueinander an- 
geordnet vorgesehen sind, wobei das Verbindungs- 
muster zwischen Logikschaltungsblock-Gruppen 
benachbarter Logikschaltungen gleich dem Ver- 
bindungsmuster der Logikschaltungsblock-Grup- 
pen ein und derselben Logikschaltung ist 

5. Verfahren nach Anspruch 3 oder 4, dadurch ge- 
kennzeichnet, daB eine Verbindung mindestens ei- 
ner Logikschaltung zu einem Host-Rechner aufge- 
baut wird 

6. Verwendung von konfigurierbaren Logikschal- 
tungs-Arrays mit verteilten Speichern zur Simula- 
tion naturwissenschaftlicher, betriebs- und volks- 
wirtschaftlicher und logistischer parallelisierbarer 
feinkdrniger Probleme, insbesondere zur Simula- 
tion biotechnoiogischer Systeme, evolvierender Sy- 
steme. 

7. Verwendung von konfigurierbaren Logikschal- 
tungs-Arrays mit verteilten Speichern zur Berech- 
nung von Problemen der kombinatorischen Opti- 
mierung insbesondere des optimalen Routens. 

8. Verwendung von konfigurierbaren Logikschal- 
tungs-Arrays mit verteilten Speichern zur lmple- 
mentierung von genetischen Algorithmen, neuro- 
nalen Netzwerken oder anderen verteilten Syste- 
men. 

9. Verwendung von konfigurierbaren Logikschal- 
tungs -Arrays mit verteilten Speichern zur Ldsung 
von Problemen des parallel erfolgenden Verglei- 
chens, Veranderns, Sortierens und/oder Aufsuchen 
von Datenstrings in Datenbanken o. dgL 

10. Verwendung von konfigurierbaren Logikschal- 
tungs- Arrays mit verteilten Speichern zur Entwick- 
lung von speziellen Digital-Schaltkreisen durch Po- 
pulationsdynamik von interaktiven Teil-Rekonfigu- 
rationen von Hardware und Berechnungen, basie- 
rend auf genetischer Manipulation von lokale Kon- 
figurationen repr&sentierenden Datenstrings. 
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